The goal of this paper is to detect objects by exploiting their interrelationships. Rather than relying on predefined and labeled graph structures, we infer a graph prior from object co-occurrence statistics. The key idea of our paper is to model object relations as a function of initial class predictions and co-occurrence priors to generate a graph representation of an image for improved classification and bounding box regression. We additionally learn the object-relation joint distribution via energy based modeling. Sampling from this distribution generates a refined graph representation of the image which in turn produces improved detection performance. Experiments on the Visual Genome and MS-COCO datasets demonstrate our method is detector agnostic, end-to-end trainable, and especially beneficial for rare object classes. What is more, we establish a consistent improvement over object detectors like DETR and Faster-RCNN, as well as state-of-the-art methods modeling object interrelationships.
translated by 谷歌翻译
State-of-the-art activity recognizers are effective during the day, but not trustworthy in the dark. The main causes are the distribution shift from the lower color contrast as well as the limited availability of labeled dark videos. Our goal is to recognize activities in the dark as well as in the day. To compensate for the lack of labeled dark videos, we introduce a pseudo-supervised learning scheme, which utilizes task-irrelevant unlabeled dark videos to train an activity recognizer. Our proposed activity recognizer makes use of audio which is invariant to illumination. However, the usefulness of audio and visual features differs according to the illumination. Thus we propose to make our audio-visual recognizer `darkness-aware'. Experiments on EPIC-Kitchens, Kinetics-Sound, and Charades demonstrate that our proposals enable effective activity recognition in the dark and can even improve robustness to occlusions.
translated by 谷歌翻译
We aim for image-based novelty detection. Despite considerable progress, existing models either fail or face a dramatic drop under the so-called "near-distribution" setting, where the differences between normal and anomalous samples are subtle. We first demonstrate existing methods experience up to 20% decrease in performance in the near-distribution setting. Next, we propose to exploit a score-based generative model to produce synthetic near-distribution anomalous data. Our model is then fine-tuned to distinguish such data from the normal samples. We provide a quantitative as well as qualitative evaluation of this strategy, and compare the results with a variety of GAN-based models. Effectiveness of our method for both the near-distribution and standard novelty detection is assessed through extensive experiments on datasets in diverse applications such as medical images, object classification, and quality control. This reveals that our method considerably improves over existing models, and consistently decreases the gap between the near-distribution and standard novelty detection performance. The code repository is available at https://github.com/rohban-lab/FITYMI.
translated by 谷歌翻译
深度学习模型在识别医学图像中的发现方面表现出了极大的有效性。但是,他们无法处理不断变化的临床环境,从而带来了来自不同来源的新注释的医学数据。为了利用传入的数据流,这些模型将在很大程度上受益于从新样本中依次学习,而不会忘记先前获得的知识。在本文中,我们通过应用现有的最新持续学习方法介绍了MedMnist收集中连续疾病分类的基准。特别是,我们考虑了三种连续的学习方案,即任务和班级增量学习以及新定义的跨域增量学习。疾病的任务和班级增量学习解决了对新样本进行分类的问题,而无需重新从头开始模型,而跨域增量学习解决了处理源自不同机构的数据集的问题,同时保留了先前获得的知识。我们对表现进行彻底的分析,并研究如何在这种情况下表现出灾难性遗忘的持续学习挑战。令人鼓舞的结果表明,持续学习具有推进疾病分类并为临床环境产生更强大,更有效的学习框架的主要潜力。将公开提供完整基准测试的代码存储库,数据分区和基线结果。
translated by 谷歌翻译
我们旨在了解行动的执行方式并确定微妙的差异,例如“折叠”“轻轻折叠”。为此,我们提出了一种识别跨不同动作的副词的方法。但是,这种细粒度的注释难以获得,其长尾巴性质使得在罕见的动作倡导者组成中识别副词是具有挑战性的。因此,我们的方法使用多副词伪标签使用半监督的学习来利用仅使用动作标签的视频。结合这些伪宇宙的自适应阈值,我们能够有效利用可用的数据,同时解决长尾分布。此外,我们收集了三个现有视频检索数据集的副词注释,这使我们能够介绍在看不见的动作adverb组成和看不见的域中识别副词的新任务。实验证明了我们的方法的有效性,该方法的表现优于识别副词和适合副词识别的半监督作品的先前工作。我们还展示了副词如何关联细粒度的动作。
translated by 谷歌翻译
由于其非参数化干扰和灾难性遗忘的非参数化能力,核心连续学习\ Cite {derakhshani2021kernel}最近被成为一个强大的持续学习者。不幸的是,它的成功是以牺牲一个明确的内存为代价来存储来自过去任务的样本,这妨碍了具有大量任务的连续学习设置的可扩展性。在本文中,我们介绍了生成的内核持续学习,探讨了生成模型与内核之间的协同作用以进行持续学习。生成模型能够生产用于内核学习的代表性样本,其消除了在内核持续学习中对内存的依赖性。此外,由于我们仅在生成模型上重播,我们避免了与在整个模型上需要重播的先前的方法相比,在计算上更有效的情况下避免任务干扰。我们进一步引入了监督的对比正规化,使我们的模型能够为更好的基于内核的分类性能产生更具辨别性样本。我们对三种广泛使用的连续学习基准进行了广泛的实验,展示了我们贡献的能力和益处。最值得注意的是,在具有挑战性的SplitCifar100基准测试中,只需一个简单的线性内核,我们获得了与内核连续学习的相同的准确性,对于内存的十分之一,或者对于相同的内存预算的10.1%的精度增益。
translated by 谷歌翻译
神经记忆能够快速适应新任务,只需几个训练样本。现有的内存模型仅从单个最后一层存储特征,在培训和测试分布之间存在域之间的域移位不概括。我们不是依赖扁平内存,我们提出了一种在不同语义层面存储特征的分层替代方案。我们介绍了分层原型模型,其中每个级别的原型从分层内存中获取相应的信息。如果域移位情况如此需要,该模型能够灵活地依赖不同语义级别的功能。我们通过新派生的分层变分推理框架来学习模型,其中分层内存和原型是共同优化的。为了探索和利用不同语义层面的重要性,我们进一步建议以数据驱动方式学习与每个级别的原型相关联的权重,这使得模型能够自适应地选择最概括的功能。我们进行彻底的消融研究,以证明我们模型中每个组件的有效性。在跨领域和传统少量拍摄分类上的跨领域和竞争性能的新的最先进的性能进一步证实了等级变分记忆的益处。
translated by 谷歌翻译
在本文中,我们提出了简单的关注机制,我们称之为箱子。它可以实现网格特征之间的空间交互,从感兴趣的框中采样,并提高变压器的学习能力,以获得几个视觉任务。具体而言,我们呈现拳击手,短暂的框变压器,通过从输入特征映射上的参考窗口预测其转换来参加一组框。通过考虑其网格结构,拳击手通过考虑其网格结构来计算这些框的注意力。值得注意的是,Boxer-2D自然有关于其注意模块内容信息的框信息的原因,使其适用于端到端实例检测和分段任务。通过在盒注意模块中旋转的旋转的不变性,Boxer-3D能够从用于3D端到端对象检测的鸟瞰图平面产生识别信息。我们的实验表明,拟议的拳击手-2D在Coco检测中实现了更好的结果,并且在Coco实例分割上具有良好的和高度优化的掩模R-CNN可比性。 Boxer-3D已经为Waymo开放的车辆类别提供了令人信服的性能,而无需任何特定的类优化。代码将被释放。
translated by 谷歌翻译
大多数设置深度学习的预测模型,使用Set-Scifariant操作,但它们实际上在MultiSet上运行。我们表明设置的函数不能代表多种功能上的某些功能,因此我们介绍了更适当的多种式概念概念。我们确定现有的深度设置预测网络(DSPN)可以是多机构的,而不会被设定的标准规模阻碍,并通过近似隐式差分改进它,允许更好地优化,同时更快和节省存储器。在一系列玩具实验中,我们表明,多机构的角度是有益的,在大多数情况下,我们对DSPN的变化达到了更好的结果。关于CLEVR对象性质预测,由于通过隐含分化所取得的益处,我们在最先进的评估指标中从8%到77%的最先进的槽注意力从8%提高到77%。
translated by 谷歌翻译
深度图像先验表明,通过简单地优化它的参数来重建单个降级图像,可以训练具有合适架构的随机初始化网络以解决反向成像问题。但是,它受到了两个实际限制。首先,它仍然不清楚如何在网络架构选择之前控制。其次,培训需要Oracle停止标准,因为在优化期间,在达到最佳值后性能降低。为了解决这些挑战,我们引入频带对应度量以表征在之前的深图像的光谱偏压,其中低频图像信号比高频对应物更快且更好地学习。根据我们的观察,我们提出了防止最终性能下降和加速收敛的技术。我们介绍了Lipschitz受控的卷积层和高斯控制的上采样层,作为深度架构中使用的层的插件替代品。实验表明,随着这些变化,在优化期间,性能不会降低,从需要对Oracle停止标准的需求中脱离我们。我们进一步勾勒出停止标准以避免多余的计算。最后,我们表明我们的方法与各种去噪,去块,染色,超级分辨率和细节增强任务的当前方法相比获得了有利的结果。代码可用于\ url {https:/github.com/shizenglin/measure-and-control-spectraL-bias}。
translated by 谷歌翻译